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perception network. 
DC P86 T01 U22 W04 
IN TRYBA, V 

PA (SIBE-N) SIBET GMBH SICAN FORSCHUNGS & ENTWICKLUN; (SICA-N) SICAN F & E 

GMBH SIBET 
CYC 1 

PI DE 19705471 Al 19970724 (199735)* 9p G10L005-06 <-- 

DE 19705471 C2 19980409 (199818) 9p G10L005-06 < — 

ADT DE 19705471 Al DE 1997-19705471 19970213; DE 19705471 C2 DE 1997-19705471 

.19970213 
PRAI DE 1997-19705471 19970213 
IC ICM G10L005-06 

AB DE 19705471 A UPAB: 19970828 

The method involves a neural network with an output magnitude 
characteristic which is time dependent. The characteristics are extracted 
from a predefined relation, and the time signal is obtained directly, 
without expensive frequency transformations, being a result of a learning 
process in the neural network (1). 

For each word to be learnt, a perception (2) is used, adapted to this 
word. Each perception is a single-layer neural network, and about 50 
characteristics are extracted from the speech signal, and adapted to the 
neural network. The calculation depends on certain functions by the 
central microprocessor, which are functions from various probability 
studies . 

USE /ADVANTAGE - For speech recognition systems. Requires modest • 
memory capacity, low power consumption and small expenditure on computers. 
Dwg.1/5 

FS EPI GMPI 

FA AB; GI 

MC EPI: T01-C08A; U22-G01A5; U22-G01D; W04-V01 

L2 ANSWER 3 OF 10 WPINDEX COPYRIGHT 2000 DERWENT INFORMATION LTD 
AN 1997-109820 [11] WPINDEX 
DNN N1997-090806 

TI Speech signal noise reduction arrangement - corrects speech signals from 
microphones according to frequency band, using digital recursive low-pass 
filter and signal-to-noise ratio detector. 

DC P86 SOS U22 W01 W04 

IN MARTIN, R 

PA (SIEI) SIEMENS AG 

CYC 3 

PI DE 19524847 CI 19970213 (199711)* 5p G10L007-04 <-- 

JP 09034496 A 19970207 (199716) 4p G10L009-00 

US 5699480 A 19971216 (199805) 5p G10L003-02 

ADT DE 19524847 CI DE 19 95-19524 8 4 7 19950707; JP 09034496 A JP 1996-173981 
19960703; US 5699480 A US 1996-673151 19960701 

PRAI DE 1995-19524847 19950707 

IC ICM G10L003-02; G10L007-04; G10L009-00 
ICS G10L007-02; H03H017-00; H03H021-00 

AB DE 19524847 C UPAB: 19970313 

The arrangement divides the signal processing required for noise 
correction into three frequency bands. Two microphones are included for 
communication, e.g. between a patient and a doctor while the patient is 
being examined in a tomograph. The low frequency band of the microphone 
signals are high-pass filtered. 

The middle frequency band is weighted with a scalar factor so that 
this frequency band is suppressed during breaks in speech. In the upper 
frequency band, an adaptive filter is used. The signals are feedback via 
an inverse filter. A digital recursive low pass filter is included, as is 
a signal-to-noise ratio detector. 

USE/ADVANTAGE - Speech transmission during computer tomography or 
magnetic resonance measurement. Reduces effect of noise on speech 
transmission quality. 



Dwg. 2/3 
FS EPI GMPI 
FA AB; GI 

MC EPI: S05-D02X; U22-G01A1; U22-G01B2; U22-G01B3; U22-G01D; W01-C04A; 
W04-V05E 

L2 ANSWER 4 OF 10 WPINDEX COPYRIGHT 2000 DERWENT INFORMATION LTD 
AN 1993-068306 [09] WPINDEX 
DNN N1993-052419 

TI Digital acoustic signal processor esp. for hearing aid - provides choice 
of reprodn. of speech in real time or at speed adapted to hearing defect. 
DC P86 W04 

IN HOTTA, M; IKEDA, H; NEJIME, Y 
PA (HITA) HITACHI LTD 
CYC 3 

PI DE 4227826 ' Al 19930225 (199309)* 16p G10L005-02 < — 

JP 05056499 A 19930305 (199315) H04R025-00 
JP 05252594 A 19930928 (199343) H04R025-00 
US 5794201 A 19980811 (199839) G10L003-00 
DE 4227826 C2 19990722 (199933) G10L003-02 <-- 

JP 3008640 B2 20000214 (200013) 6p H04R025-00 

ADT DE 4227826 Al DE 1992-4227826 19920821; JP 05056499 A JP 1991-211872 

19910823; JP 05252594 A JP 1992-45257 19920303; US 5794201 A Div ex US 
1992-931375 19920818, US 1995-462268 19950605; DE 4227826 C2 DE 
1992-4227826 19920821; JP 3008640 B2 JP 1992-45257 19920303 

FDT JP 3008640 B2 Previous Publ . JP 05252594 

PRAI JP 1991-211872 19910823; JP 1992-45257 19920303 

IC ICM G10L003-00; G10L003-02; G10L005-02; H04R025-00 
ICS G10L009-00; H04R003-00; H04R025-02 

AB DE 4227826 A UPAB: 19930924 

The signal picked up by a microphone (2) is amplified and digitised (11) 
for storage in semiconductor memory (14) and processing (12) which 
involves improvement of acoustic properties (121) and low-speed sound 
reproduction (122) . 

A controller (4) enables the user to select between real-time and 
time-expanded processing of the stored digital signals before they are 
reconverted to analogue form and amplified (13) to the level required to 
drive an earphone (3) . 

ADVANTAGE - Hearing characteristic of elderly person with degraded 
time resolution can be compensated by reproduction of digitised stored 
speech at slower rate. (Dwg. 2/11 
2/11 

FS EPI GMPI 

FA AB; GI 

MC EPI: W04-G01B7; W04-V05; W04-V09; W04-Y03 

L2 ANSWER 5 OF 10 WPINDEX COPYRIGHT 2000 DERWENT INFORMATION LTD 
AN 1992-277685 [34] WPINDEX 

TI Data reduced speech communication based on non-harmonic constituents - 
involves analogue-digital converter receiving band limited input signal 
with digital signal divided into twenty one band passes at specific time. 

DC P86 U21 W01 W04 

IN KOENIG, F 

PA (KOEN-I) KOENIG F 

CYC 1 

PI DE 4203436 A 19920813 (199234)* 14p G10L007-04 <-- 

ADT DE 4203436 A DE 1992-4203436 19920206 

PRAI DE 1991-4103568 19910206 

IC ICM G10L007-04 

ICS H03M003-00; H03M007-30; H04M001-64 

AB DE 4203436 A UPAB: 19931006 

The signal processing stages appertain to a digital input-side, 
data-reduced . speech signal synthesisation, i.e., the prodn . of a 
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@ Verfahren und Schaltungsanordnung zur Spracherken- 
nung und zur Sprachsteuerung von Vorrichtungen. 
Zur Spracherkennung warden neuronals Netza verwendet, 
die sehr rechenaufwendig sind. Die Klassifizierungs-Merk- 
male mussen relatlv aufwendig ermittett warden, um eine 
zuveriassige Funktion des Verfahrens zu gewahrieisten. 
£s hat sich gezeigt daS die Verwendung eines Transversal- 
filters in Verbindung mit einem Perzeptron-Netz sehr gut zur 
wenig rechenintenstven Spracherkennung geeignet 1st. 
Durch die Ermittlung elner Einhullonden und die Auftailung 
des Signals In vier Teilbereiche wird der Rechenbedarf noch 
waiter verringert und die Zuveriassigkeit des Systems ge- 
steigert 

Die Erfindung kann insbasondera zur preiswarten Sprach- 
m steuerung von Haushaltsgeraten verwendet warden. 
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Beschreibung 

Die Erfindung betrifft ein Verfahren und eine Schal- 
tungsanordnung zur Spracherkennung and zur Sprach- 
steuerung von Vorrichtungen. Die Erkennung der Kom- 5 
mandoworte erfolgt prinzipiell dadurch, daB Komman- 
dowort-Signale digital aufgezeichnet and Merkmale der 
digital auf gezeichn eten Signale berechnet werden, die in 
ein neuronales Netzwerk zur Ermitthing des zugehdri- 
gen Kommandowortes gespeist werden. 10 

Spracherkennungsverfahren, die auf neuronalen 
Netzwerken basieren, sind vor allem auf der Basis von 
verborgenen Markov-Modellen (Hidden Markov-Mo- 
del) oder dem Dynamic Time Warping- Verfahren 
(DTW) bekannt Diesbezuglich sei auf die DE- is 
PS 33 37 353 C2, DE-OS 42 41 688 A 1, DE-OS 195 08 
71 1 Al und DE 44 17 557 Al verwiesen. AJQe diese Ver- 
fahren sind sehr aufwendig und erfordern leistungsfahi- 
ge digitale Signalprozessoren zur Durchnlhrung einer 
Frequenzanalyse. AuBerdem mussen die Daten fur alle 20 
Sprachproben aufgezeichnet und permanent verfOgbar 
gehalten werden, damit bei dem spateren Erkennungs- 
vorgang das ahnlichste Wort im Vergleich zu den 
Sprachproben herausgesucht werden kann. Dement- 
sprechend sind die Anforderungen an die Prozessorlei- 25 
stung und den Speicherbedarf relativ hoch und der Her- 
stellungspreis vor allem zur Anwendung bei Sprach- 
steuerungen zu hoch. 

Der Rechenaufwand ist auch bei der in der DE- 
OS 41 1 1 995 Al beschriebenen Schaltungsanordnung 30 
zur Spracherkennung relativ groB, da dort eine Spek- 
tral analyse durchgefuhrt werden mufi. 

In der DE-OS 39 31 638 Al wird ein Verfahren zur 
sprecheradaptiven Spracherkennung beschrieben, das 
keine Frequenztransformation mehr erf ordert Aus dem 35 
Sprachsignal werden Merkmalsvektoren extrahiert, die 
in silbenorientierte Wortuntereinheiten segmentiert 
und klassifiziert werden. Pro Wortuntereinheit wird ein 
Vergleich mit Referenzmustern durchgefuhrt Hierzu 
mQssen die Referenzmuster fur einen gesamten Wort- 40 
schatz abgespeichert und fur den Vergleich verfugbar 
gehalten werden. 

In der DE-PS 39 35 308 CI wird zur Spracherken- 
nung die Durchfuhrung einer Differenzierung und einer 
Deltamodulation des abgetasteten Sprach-Zeitsignals 45 
vorgeschlagen. AnschlieBend wird die Anzahl der "Ein- 
sen w festgestellt, die in Bytes vorhanden sind, die aus 
einer Anzahl aufeinanderfolgender Abtastwerte gebil- 
det werden. Die Anzahl von "Tainsen" pro Byte reprasen- 
tiert eine Hauptcodezahl, die fiber die Zeit aufgetragen so 
ein Balkenmuster bildet, das mit Referenzmustern ver- 
glichen wird. Auch hier ist eine Abspeicherung einer 
Viehahl von Referenzmustern erforderlich. 

In der DE-OS 41 03 913 Al ist eine Einrichtung zur 
Geratesteuerung beschrieben, bei dem ein Zeitmuster 55 
in bezug auf die Ton- und Pausendauer ermittelt wird, 
das mit Referenzmustern verglichen wird. Die Unter- 
scheidungsf ahigkeit von Worten allein durch das Merk- 
mal der Ton- und Pausendauer ist in der praktischen 
Anwendung nicht ausreichend. AuBerdem mussen pro 60 
Kommandowort Referenzmuster abgespeichert und 
verfugbar gehalten werden. 

In der DE-OS 195 08 137 Al werden Worte schritt- 
weise klassifiziert, indem eine Teflwortlange, eine An- 
zahl von Segment en und eine Lauttypfolge ermittelt 65 
wird. Fur den nachfolgenden Klassifikationsschritt wer- 
den dann nur noch die Referenzworte betrachtet, bei 
denen die Merkmale innerhalb vorgegebener Toleran- 
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zen Iiegen. 

Zur Detektion des Start- und Endpunktes eines Wor- 
tes wird in der DE-OS 44 22 545 Al vorgeschlagen das 
Sprechsignal blockweise zu unterteOen und Merkmals- 
vektoren zu bilden, indem pro Block die Signalenergie 
sowie die quadratische Differenz eines LPC (Linear- 
Predictive-Ccxling)-Cepstnmi-Koefr^ in bezug 

auf einen mittleren lJ?C>Cepstrum-Koefnzienten be- 
stimmt wird. Der Merkmalsvektor sowie ein mitderer 
Merkmalsvektor werden mit einem SchweDwert zur 
Detektion des Start-/Endpunktes verglichen. 

In der DE-OS 43 28 752 Al wird ein Spracherken- 
nungssystem vorgestellt, das ein mehrschichtiges neuro- 
nales Netzwerk erfordert Dadurch ist der Rechenauf- 
wand und die Anzahl von Netzwerkknoten uner- 
wunscht hoch. 

Aufgabe 

Ausgehend von diesem Stand der Technik war es 
Aufgabe der Erfindung, ein Verfahren und eine Schal- 
tungsanordnung zur Spracherkennung und zur Sprach- 
steuerung von Vorrichtungen mit vermindertem Re- 
chenaufwand zu schaff en, wobei nur eine geringe Lei- 
stung eines zentralen Mikroprozessors (CPU) und eine 
geringe Speicherkapazitat erforderlich ist. Das Verfah- 
ren und die Vorrichtung sollte dennoch sehr zuverlassig 
und leistungsfahig sein. 

Erfindung 

Die Aufgabe wird durch das Verfahren nach An- 
spruch 1 und die Schaltungsanordnung nach Anspruch 
15 geldst. 

Vorteilhafte Ausgestaltungen sind in den Unteran- 
spruchen beschrieben. 

Es hat sich gezeigt, daB die Verwendung eines Trans- 
versalfilters in Verbindung mit einem Peraeptron-Netz 
sehr gut zur wenig rechenintensiven Spracherkennung 
geeignet ist Durch die ErmitUung einer Einhullenden 
und die Aufteilung des Signals in vier Teilbereiche wird 
der Rechenbedarf noch weiter verringert und die Zu- 
verlassigkeit des Systems gesteigert. 

Werden bei dem Anlernvorgang Sprechproben von 
mehreren Personen aufgenommen, ist das Verfahren in 
der Lage, eine gewisse Sprecheninabhangigkeit bei der 
Spracherkennung zu erreichen. 

Zeichnungen 

Die Erfindung wird nachfoigend anhand der Zeich- 
nungen naher eriautert Es zeigen: 

Fig. 1 Verfahreiisprinzip zur Spracherkennung unter 
Verwendung eines kunstlichen neuronalen Netzes; 

Fig. 2 Prinzip der Ermittlung der Einhullenden aus 
dem Zehsignal; 

Fig. 3 Berechnung der Merkmale jeweils fur die vier 
Wortbereiche; 

Fig. 4 Stark vereinf achtes dighales Transversalnlter; 

Fig. 5 Schaltungsanordnung zur Spracherkennung. 

Ausfuhrungsbeispiele 

Das Verfahrensprinzip zur Spracherkennung unter 
Verwendung eines neuronalen Netzes ist in der Fig. 1 
dargestellt Das Sprachsignal ist Qber die Zeitachse auf- 
getragen. 

Das Prinzip des Verfahren besteht darin, daB Merk- 
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male zur Erkennung des Wortes ohne aufwendige Fre- 
quenztransformation direkt aus dem Zeitsignal extra- 
hiert werden. Die extrahierten Merkmale werden an ein 
kunstliches neuronales Netz (1) angelernL Fur jedes an- 
zulernende Wort wird ein Perzeptron (2) verwendet das 
auf dieses Wort angelemt wird. Ein Perzeptron ist ein 
einschichtiges neuronales Netz, daB z. B. in "The percep- 
tron: a probabilistic model for information storage and 
organization in the brain" von F. Rosenblatt in *Neuro- 
computing: foundations of research 9 , Massachusetts In- 
stitute of Technology, 1988, S. 92 ff, ausfuhrlich darge- 
stellt ist Insgesamt werden ca. 50 Merkmale aus dem 
Sprachsignal extrahiert und dem neuronalen Netz (1) 
angelemt 

Die Berechnung der Merkmale erfolgt durch Funk- 
tionen, die auf dem zentraien Mikroprozessor abiauf en. 
Dieser ist vorteilhafterweise ein Mikrocontroller, der 
Schaltungen zur Ansteuerung von Steuerelementen und 
zur Analog-Digital- Wandlung auf dem Chip aufweist 

Die ermittelten Merkmalsvektoren werden vor dem 
Anlernen an das neuronale Netz (1) normiert, und zwar 
in der Weise, dafi fur jedes Merkmal getrennt das Maxi- 
mum des Betrages ermhtelt wird. Danach wird die be- 
treff ende Komponente durch diesen Wert dividiert, wo- 
mit erreicht wird, daB alle Merkmale in den Zahlenbe- 
reich -1 ... +1 abgebildet werden. Dies faint zu einer 
Erhdhung der Erkennungsrate, da alle Merkmale gleich 
stark gewichtet sind und nicht einzelne Merkmale mit 
einem kleinen Absolutwert gegenuber Merkmalen mit 
groBen Absolutwerten veraachlassigt werden. 

Fur die neu zu klassifizierenden Merkmale muB ent- 
sprechend die Multiplication jeder Komponente erfol- 
gen. 



hullende des Zeitsignals berechnet Zu diesem Zweck 
wird, wie in der Fig. 2 skizziert ist, jewefls in einem 
Teilintervall das jeweiUge Maximum ermittelt und ge- 
speichert Die Gesamtmenge der auszuwertenden Da- 
ten reduziert sich dabei von 20 000 Abtastwerten auf ca. 
150 Abtastwerte. Diese sind ausreichend, urn die Einhul- 
lende hinreichend genau zu beschreiben. Aus der Ein- 
hullenden wird ein Teil der Klassiflkations-Merkmale 
gewonnen. 

Aus der Form der Emhullenden lassen sich dann wei- 
tere Merkmale mit vergieichsweise geringem CPU- Auf- 
wand berechnen. Die Verwendung der Emhullenden fur 
diese Merkmalsbestimmungen macht das Ergebnis zu- 
dem robuster gegen einzelne Stdrsignale und Variatio- 
nen der Aussprache. 

3. Bestimmung des Durchschnittswerts der 
Emhullenden 

Es wird der Durchschnittswert der Emhullenden be- 
stimmt Dieser unterscheidet sich vbm Durchschnitts- 
wert des Zeitsignales, da entsprechend der Fig. 2 eine 
Art Gleichrichtung und Glattung stattgefunden hat 

4. Detektion der Wortanwesenheit 

Zunachst wird mit der Einhullenden in robuster Wei- 
se detektiert, ob Qberhaupt ein Wort gesprochen wurde. 
Zu diesem Zweck wird gepruft, ob der Durchschnitts- 
wert der Einhullenden deutlich und fur eine langere Zeit 
(mind. 0,2 Sekunden) uberschritten wurde. Daraus wird 
zunachst ein Zeitpunkt bestimmt, der als Wortmitte be- 
zeichnetwird 



to 



15 



20 



25 



Beschreibung der Merkmale 35 5. Detektion von Wortanf ang und Wortende 

Im folgenden werden die Verfahrensschritte zur Ausgehend von dieser Wortmitte wird sodann der 

Spracherkennung und zur Ermittlung der Klassifika- Wortanf ang und das Wortende gesucht Dazu muB ein 

tions-Merkmale fur das Sprachsignal beschrieben. Es SchweDwert der Einhullenden unterschritten werden, 

sind vorgesehen: 40 und danach fur langere Zeit unterschritten bleiben (Stil- 

le vor und nach dem Wort). 

1. Ermittlung statistischer GroBen; 

2. Ermittlung der Einhullenden zur Extrahierung 6. Bestimmung von Vorlaufern und Nachlaufern 
von Merkmalen; 

3. Bestimmung des Durchschnittswerts der Einhul- Manche Worte zeichnen sich dadurch aus, daB es 
lenden; Vor- oder Nachlaufer gibt Um dies festzustellen, wird 

4. Detektion der Wortanwesenheit (kein Merkmal); aus der Einhullenden eine Ableitung bestimmt Die Be- 

5. Detektion von Wortanf ang und Wortende (kein trage der Ableitungen werden im Anfangsbereich und 
Merkmal); Endbereich des Wortes aufsummiert Je groBer die er- 

6. Bestimmung von Vorlaufern und Nachlaufern; 50 haltenen Werte sind, desto eher kann angenommen 

7. Bestimmung der Anzahl der Silben; werden, daB Vor- bzw. Nachlaufer vorhanden sind. Mit 

8. Unterteilung des Wortes in vier Teilbereiche; diesem Merkmal wird zugleich auch ein MaB fur ihre 

9. Anwendung stark vereinfachter digitaler Fflter; Intenshat ermittelt 

10. Bestimmung der Signalenergie nach einer Tief- 

paBundHochpaB-Fllterung; 7. Bestimmung der Anzahl der Silben 

1 1. Bestimmung der Anzahl der NuHdurchgange. 

Die Anzahl der Silben eines Wortes kann nicht mit 

1. Ermittlung statistischer GroBen einfachen Algorithmen ermittelt werden, da beispiels- 

weise das Wort "zuruck* von manchen Sprechern mh, 

Zunachst werden einige einfache statistische GroBen 60 von anderen ohne Pause gesprochen wird bzw. es auch 

aus dem Zeitsignal berechnet, wie der Mktehvert des Obergange gibt Um ein MaB dafur zu erhalten, ob es 

Signal es, die Varianz, die Gesamtsumme des Signales eine Pause in der Wortmitte gibt werden aus der Ein- 

unddie Wortdauer. hullenden Ableitungen bestimmt und die Be trage der 

Ableitungen im Bereich der Wortmitte aufsummiert 

2. Ermittlung der Einhullenden zur Extrahierung von 65 

Merkmalen 8u Unterteilung des Wortes in vier Teilbereiche 



Zur Einsparung von Rechenzeh wird danach die Ein- 



Mit Hilfe der Einhullenden kann das Wort in die vier 
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gieichgroBen TeObereiche 1. Viertel, 2. Viertel, 3. Viertel, digitalen FOtern auskommt, die aber in Verbindung mit 
4. Viertel unterteilt werden. Die Einteilung ist aus der dem Anlernvorgang des neuronalen Netzes dennoch zu 
Fig. 3 ersichtfich. Die im folgenden beschriebenen ex- guten Erkennungsergebnissen fuhrt 
trahierten Merkmale werden dann jeweils fur diese Insgesamt werden ca. 20 derartige Merkmale aus dem 
Teilbereiche, audi Abschnitte genannt, berechnet 5 Zeitsignal bestimmt und als Merkmal in das neuronale 

Dieses Vorgehen ist sinnvoH da sich die Eigenschaf- Netz eingespeist Die guten Erkermungsraten basieren 
ten des Zeitsignales im Verlaufe der Aussprache eines wesentlich auf dies em Verfahren. 
Wortes andern. Es hat sich gezeigt, daB eine feinere 

Unterteilung des Wortes in wesentlich mehr Abschnitte la Bestimmung der Signalenergie nacb einer TiefpaB-, 
nicht sinnvoll ist, da sich damit die pro Zekeinheit zu *° HochpaB-Fflterung 
verarbeitende Datenmenge erhdht, sich aber die Ro- 

bustheit des Erkennungsalgorithmus hingegen verrin* Ferner wird ein einf acher digitaler HochpaB und ein 
gert, da Einzelheiten des Zeitsignaies und zufallige TiefpaB verwendet der aus der Literatur, z. B. aus "Ein- 
Schwankungen ein zu groBes Gewicht erhalten. fuhrung in die digitate Signalverarbeitung 1 ', HL Gdtz, 

is Teubner Studienskipten, Stuttgart, 1990, hinreichend 
9. Verwendung von stark vereinf achten digitalen Filtern bekannt ist Der Ausgangswert des Filters wird nach 

Betragsbildung zur Ermittlung einer "Signalenergie" fur 
In Lehrbuchern, z. B. in ^Emfuhrung in die digitate jedes Wortviertel aufsummiert 
Signalverarbeitung w , R Gdtz, Teubner Studienskipten, 

Stuttgart, 1990, S. 1 10, wurde gezeigt, daB die FFT (Fast » 1 1. Anzahl der NuUdurchgange 

Fourier Transform) im Prinzip als eine Fflterbank aus r - 

vielen einzelnen Bandpassen verstanden werden kann. Die Anzahl der NuUdurchgange wird fur jedes Wort- 

Dabei ist der Aufwand fur die Realisierung dieser Band- viertel bestimmt und als Merkmal verwendet Dieses 

passe relativ groB. Merkmal gibt Hinweise auf die Tonhohe. 

Der Aufwand kann jedoch deutlich reduziert werden. 25 Die Schaltungsanordnung zur Spracherkennung und 
Im Verlaufe der Entwicklung des Gegenstandes der Er- Sprachsteuerung ist in der Fig. 5 dargestellt In einer 
findung hat sich gezeigt, daB extrem vereinfachte digita- Wandlerschaltung werden Sprachsignale in analoge 
le Filter in Kombination mit einem Perzeptron-Netz- elektrische Signale mit Hilfe eines Mikrofons und eines 
werk zu guten Ergebnissen bei der Spracherkennung Verstarkers umgewandelt Mit der Wandlerschaltung ist 
fuhren. Zu diesem Zweck wird das folgende, stark ver- 30 eine Abtastschaltung zur Erzeugung einer Anzahl digi- 
einf achte digitale Transversalfilter verwendet, das in der taler Abtastwerte aus dem analogen elektrischen Signal 
Fig. 4 dargestellt ist verbunden. Die die digitalen Abtastwerte werden in ei- 

Es wird jeweils die Differenz aus dem aktueDen Ab- nem Speicher abgelegt Ein zentraler Mikroprozessor 
tastwert z t des Sprachsignales mit einem urn die Zeit T (CPU) ist zur Ausfuhrung von Bef ehlsf olgen zur Sprach- 
alteren Wert zt- T gebfldet: dt = zt— z t - T . Die Absolut- 35 erkennung und zur Steuerung der Schaltungsanordnung 
werte der Differenz eines Teilbereichs (Wortviertels) vorgesehen. Die Schaitung wird mit einer Taktgenera- 
werden jeweils fur das U 2^ 3. und 4. Wortviertel auf- torschaltung getaktet Die Befehbfolgen zur Spracher- 
sununiert und als Merkmal dem Perzeptron zugefuhrt kennung werden in einem Speicher, z. B. in einem 
Es werden die Merkmale Si, S* S 3 , S4 ermittelt: PROM, fest abgelegt Eine Scfaalterkombination ist zur 

40 Einstellung binarer Zahlen vorgesehen, wobei die Stel- 
. lung der Schalterkombination dem Mikroprozessor die 

~2 Anzahl voneinander unterschiedlicher Kommandowor- 

S]_ = ^\ [z£ — z t— xl ' te anzeigt Ein Anlernzyklus fur die Anzahl Kommando- 

. worte kann mit einem Taster gestartet und gestoppt 

^ 45 werden. Wahrend des Anlernzyklus werden Komman- 

doworte aufgezeichnet und jeweils pro Kommando- 
^3 wort mit Hilfe des Mikroprozessors Referenzmerkmale 

So = y\ |z t — z t— xl ' der diei^ 11 Abtastwerte bestimmt Die Referenzmerk- 

-~ 1 1 male werden in einem SRAM-Speicher abgelegt Eine 

^2 50 Segmentanzeige ist zur Anzeige von Zahlen vorgese- 

hen, die jeweils einem Kommandowort oder dem Be- 
t 4 triebsmodus der Schaltungsanordnung; inbesondere des 

S3 = V |z t - z t _J ; Anlernzyklus oder eines Erkennungszykius zur Steue- 

1 1 rung, entsprechen. In einer bevorzugten Ausfuhrungs- 

55 form ist die mit der Wandlerschaltung verbundene Ab- 
tastschaltung zur Erzeugung einer Anzahl digitaler Ab- 
fc s tastwerte aus dem analogen elektrischen Signal ein Be- 

S A sr'V |zt- — Zt-— rl . standteil des zentralen Mikroprozessors (CPUX 

* J-4 I t. t| - Das Zeitsignal des gesprochenen Wortes wird mit 

t 4 go einem Mikrophon aufgenommen und mit einer Abta- 

strate von 10 KHz aufgezeichnet Die Aufzeichnung ist 
Durch die Zeitverzogerung und die Differenzbildung damit geringfugig besser als Telefonqualitat Die Auf- 
ergibt sich ein frequenzselektives Verhalten des Merk- nahmedauer betragt etwa 2 Sekunden. Der Mikrocont- 
r n a f^ j das von x abhkngt roller beginnt mit der Aufzeichnung erst, nachdem ein 

Werden unterschiedliche Verzogerungszeiten x ge- 65 Signal, das einen Schwellwert Qberschreitet, registriert 
wahlt, so ist das Merkmal jeweils fur verschiedene Fre- wurde. Durch diese MaBnahme wird etwas Speicher- 
quenzbereiche sensitiv, so daB eine Frequenzanalyse platz bcim Aufeeichnen des Signales eingespart, zudem 
des Wortes erfolgt die mh vergleichsweise schlechten wartet das System auf die SprachauBerung. Die Aus- 
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wertung beginnt erst, nachdem das Signal aufgezeichnet 
wurde. 

Patentansp ruche 5 

1. Verfahren zur Spracherkennung und zur Sprach- 
steuerung von Vorrichtungen, wobei ein Sprachsi- 
gnal aufgezeichnet, digitalisiert und Merkmale des 
Sprachsignals ermittelt werden und jeweils mit HU- ^ 
fe eines neuronalen Netzwerkes anhand der ermit- 
telten Merkmale des Sprachsignals das zum 
Sprachsignal zugehdrige Wort bestimmt wird, ge- 
kennzeichnet durch 

a) Transversalfilterung des digitalen Sprachsi- 
gnals fur eine Anzahl von Frequenzbereichen; 

b) Ermittlung von Merkmalen M T pro Fre- 
quenzbereich in Abhangigkeit von den Ergeb- 
nissen der Transversalfilterung des jeweiligen 
Frequenzbereichs; ^ 

c) Bestimmung eines Wortes anhand der 
Merkmale M T mit Hilfe eines Perzeptron-Net- 
zes. 

2. Verfahren nach Anspmch 1, gekennzeichnet 
durch Transversalfilterung des digitalen Sprachsi- ^ 
gnals mit den Schritten von: 

a) Berechnung einer Anzahl von Differenzen 
dt von jeweils einem aktuellen Abtastwert z t 
mit einem um die Verzogerangszeit x zuruck- 
liegenden Abtastwert zt-t fur eine Reihe von 
Zeitpunkten t des digitalisierten Sprachsignals; 

b) Berechnung jeweils der Absolutwerte der 
Anzahl von Differenzen; 

c) Bildung der Summe St der Absolutwerte der 
Anzahl von Differenzen di ; 35 

wobei jede Summe St ein Merkmal M T fur das Per- 
zeptron-Netz ist 

3. Verfahren nach Anspruch 2, gekennzeichnet 
durch Ausf flhrung der Transversalfilterung fur eine 
Reihe von VerzSgerungszeiten x. ^ 

4. Verfahren nach einem der vorhergehenden An- 
spruche, gekennzeichnet durch Bestimmung der 
EinhuDenden des Sprachsignals, wobei jeweils in 
einem Teilintervall das jeweilige Maximum ermit- 
telt und gespeichert wird. 

5. Verfahren nach Anspruch 4, gekennzeichnet 
durch Bestimmung des Durchschnittswertes der 
EinhuUendeiL 

6. Verfahren nach einem der vorhergehenden An- 
spruche, gekennzeichnet durch Ermittlung des Mit- 
telwertes des Signals, der Varianz, der Gesamtsum- 
me des Signales und der Wortdauer. 

7. Verfahren nach einem der vorhergehenden An- 
spruche, gekennzeichnet durch Einteilung des 
Sprachsignals in vier Teilbereiche. 

& Verfahren nach Anspruch 7, gekennzeichnet 
durch digitale HochpaB- und TiefpaBfilterung je- 
weils der Teilbereiche des Sprachsignals, wobei der 
Ausgangswert des Filters fur jeden Teilbereich auf- 
summiertwird. w 

9. Verfahren nach einem der vorhergehenden An- 
spruche, wobei eine Prufung erfolgt, ob der Durch- 
schnittswert der EinhuDenden deutlich und fur eine 
festgelegte Mindestzeit Oberschritten wurde, um zu 
erkennen, ob ein Wort gesprochen wurde. ^ 

10. Verfahren nach einem der vorhergehenden An- 
spruche, gekennzeichnet durch Bestimmen der 
Wortmitte durch Halbierung der Zeit bestimmt, in 
der der Durchschnittswert der Einhullenden deut- 
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lich und fur eine festgelegte Mindestzeit uberschrh- 
ten ist, und Verwenden der Wortmitte als Merkmal 
fur das Perzeptron-Netz. 

1 L Verfahren nach einem der vorhergehenden An- 
spruche, gekennzeichnet durch Bestimmen des 
Wortanfangs und des Wortendes durch Vergleich 
der Einhullenden mit einem Schwellwert, wobei bei 
einem Wortende der Schwellwert eine festgelegte 
Zeit unterschritten sein mufi. 

12. Verfahren nach einem der vorhergehenden An- 
spruche, gekennzeichnet durch Erkennen von Vor- 
oder Kachlauf ern durch Bestimmung von Ableitun- 
gen aus der Einhullenden und Aufsummierung der 
Betrage der Ableitungen im Anfangsbereich und 
Endbereich des Wortes, wobei ein Vor- bzw. Nach- 
laufer vorhanden ist, wenn ein festgelegter Wert 
Oberschritten ist, und Verwenden der Existenz und 
der Intensitat der Vor- und Nachlaufer als Merk- 
mal fur das Perzeptron-Netz. 

13. Verfahren nach einem der vorhergehenden An- 
sprQche, gekennzeichnet durch Bestimmen der An- 
zahl von Silben eines Wortes durch Berechnung 
von Ableitungen der Einhullenden und Aufsummie- 
rung der Betrage der Ableitungen im Bereich der 
Wortmitte und Verwenden der Anzahl von Silben 
als Merkmal fur das Perzeptron-Netz, 

14. Verfahren nach einem der vorhergehenden An- 
spruche, gekennzeichnet durch Bestimmen einer 
Anzahl der Nulldurchgange fflr jedes Wortviertel 
und Verwenden der Anzahl der Nulldurchgange als 
Merkmal fur das Perzeptron-Netz. 

15. Schaltungsanordnung zur Sprachsteuerung von 
Vorrichtungen mit einer Wandlerschaltung zur 
Umwandlung von Sprachsignal en in analoge elek- 
trische Signale, einer mit der Wandlerschaltung 
verbundenen Abtastschaltung zur Erzeugung einer 
Anzahl digitaier Abtastwerte aus dem analogen 
elektrischen Signal, einem Speicher fur die digita- 
len Abtastwerte, einer Taktgeneratorschaitung, ei- 
nem zentralen Mikroprozessor (CPU) zur Ausfuh- 
rung von Befehlsfolgen zur Spracherkennung und 
einem Speicher fur die Befehlsfolgen zur Spracher- 
kennung, wobei der zentrale Mikroprozessor mit 
den Schaltungen und Speichern zur Ansteuerung 
und Datenubertragung verbunden ist, gekenn- 
zeichnet durch 

eine Schalterkombination zur Einstellung binarer 
Zahlen, wobei die Stellung der Schalterkombina- 
tion dem Mikroprozessor die Anzahl voneinander 
unterschiedlicher Kommandoworte anzeigt, 
einem Taster zum Starten und Stoppen eines An- 
lemzyklus, in dem Kommandoworte aufgezeichnet 
und jeweils pro Kommandowort mit Hilfe des Mi- 
kroprozessors Referenzmerkmale der digitalen 
Abtastwerte bestimmt werden, 
einen fest programmierbaren Speicher zur Spei- 
cherung der Referenzmerkmale. 

16. Schaltungsanordnung nach Anspruch 15, ge- 
kennzeichnet durch eine Segmentanzeige zur An- 
zeige von Zahlen, die jeweils einem Kommando- 
wort oder dem Betriebsmodus der Schaltungsan- 
ordnung, inbesondere des Anlernzyklus oder eines 
Erkennungszyklus zur Steuerung, entsprechen. 

17. Schaltungsanordnung nach einem der Anspru- 
che 15 oder 16, dadurch gekennzeichnet, daB die 
mit der Wandlerschaltung verbundeue Abtast- 
schaltung zur Erzeugung einer Anzahl digitaier Ab- 
tastwerte aus dem analogen elektrischen Signal ein 
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Bestandteil des zentralen Mikroprozessors (CPU) 
ist 
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